利用标签相关性对于多标签分类很重要。先前的方法主要通过将标签矩阵转换为具有低升级矩阵分解的潜在标签空间来捕获高阶标签相关性。但是,标签矩阵通常是一个全等级或近似的全级矩阵,使得低级别的分解不合适。此外,在潜在空间中,标签相关性将成为隐式。为此,我们提出了一种简单而有效的方法,以明确描绘高阶标签相关性,同时保持标签矩阵的高级别。此外,我们通过输入的局部几何结构同时估计标签相关性和推断模型参数,以实现相互增强。超过十个基准数据集的比较研究验证了所提出的算法在多标签分类中的有效性。利用的高阶标签相关性与常识在经验上是一致的。我们的代码可在https://github.com/601175936/homi上公开获取。
translated by 谷歌翻译
Offline reinforcement learning (RL) enables the agent to effectively learn from logged data, which significantly extends the applicability of RL algorithms in real-world scenarios where exploration can be expensive or unsafe. Previous works have shown that extracting primitive skills from the recurring and temporally extended structures in the logged data yields better learning. However, these methods suffer greatly when the primitives have limited representation ability to recover the original policy space, especially in offline settings. In this paper, we give a quantitative characterization of the performance of offline hierarchical learning and highlight the importance of learning lossless primitives. To this end, we propose to use a \emph{flow}-based structure as the representation for low-level policies. This allows us to represent the behaviors in the dataset faithfully while keeping the expression ability to recover the whole policy space. We show that such lossless primitives can drastically improve the performance of hierarchical policies. The experimental results and extensive ablation studies on the standard D4RL benchmark show that our method has a good representation ability for policies and achieves superior performance in most tasks.
translated by 谷歌翻译
由于共同国家行动空间相对于代理人的数量,多代理强化学习(MARL)中的政策学习(MARL)是具有挑战性的。为了实现更高的可伸缩性,通过分解执行(CTDE)的集中式培训范式被MARL中的分解结构广泛采用。但是,我们观察到,即使在简单的矩阵游戏中,合作MARL中现有的CTDE算法也无法实现最佳性。为了理解这种现象,我们引入了一个具有政策分解(GPF-MAC)的广义多代理参与者批评的框架,该框架的特征是对分解的联合政策的学习,即,每个代理人的政策仅取决于其自己的观察行动历史。我们表明,最受欢迎的CTDE MARL算法是GPF-MAC的特殊实例,可能会陷入次优的联合政策中。为了解决这个问题,我们提出了一个新颖的转型框架,该框架将多代理的MDP重新制定为具有连续结构的特殊“单位代理” MDP,并且可以允许使用现成的单机械加固学习(SARL)算法来有效地学习相应的多代理任务。这种转换保留了SARL算法的最佳保证,以合作MARL。为了实例化此转换框架,我们提出了一个转换的PPO,称为T-PPO,该PPO可以在有限的多代理MDP中进行理论上执行最佳的策略学习,并在一系列合作的多代理任务上显示出明显的超出性能。
translated by 谷歌翻译
在此演示中,我们介绍了聊天设计,这是一种用于个性化时装设计的新的多模式交互系统。与基于关键字的服装推荐服装的经典系统相比,聊天到设计使用户可以通过两个步骤设计衣服:1)通过对话进行粗粒的选择,以及2)通过交互式界面进行精细粒度编辑。它涵盖了三个子系统来提供沉浸式用户体验:通过自然语言理解授权的对话系统,以接受用户的请求并管理对话框;由大规模预处理的语言图像网络授予的多模式时尚检索系统,用于检索所需的服装;一种由新兴生成技术授权的时装设计系统,用于编辑检索到的衣服的属性。
translated by 谷歌翻译
离线增强学习(RL)可以从先前收集的数据中进行有效的学习,而无需探索,这在探索昂贵甚至不可行时在现实世界应用中显示出巨大的希望。折扣因子$ \ gamma $在提高在线RL样本效率和估计准确性方面起着至关重要的作用,但是折现因子在离线RL中的作用尚未得到很好的探索。本文研究了$ \ gamma $在离线RL中的两个明显影响,并通过理论分析,即正则化效果和悲观效应。一方面,$ \ gamma $是在现有离线技术下以样本效率而定的最佳选择的监管机构。另一方面,较低的指导$ \ gamma $也可以看作是一种悲观的方式,我们在最坏的模型中优化了政策的性能。我们通过表格MDP和标准D4RL任务从经验上验证上述理论观察。结果表明,折现因子在离线RL算法的性能中起着至关重要的作用,无论是在现有的离线方法的小型数据制度下还是在没有其他保守主义的大型数据制度中。
translated by 谷歌翻译
离线增强学习(RL)提供了一个有希望的方向,可以利用大量离线数据来实现复杂的决策任务。由于分配转移问题,当前的离线RL算法通常被设计为在价值估计和行动选择方面是保守的。但是,这种保守主义在现实情况下遇到观察偏差时,例如传感器错误和对抗性攻击时会损害学习政策的鲁棒性。为了权衡鲁棒性和保守主义,我们通过一种新颖的保守平滑技术提出了强大的离线增强学习(RORL)。在RORL中,我们明确地介绍了数据集附近国家的策略和价值函数的正则化,以及对这些OOD状态的其他保守价值估计。从理论上讲,我们表明RORL比线性MDP中的最新理论结果更紧密地构成。我们证明RORL可以在一般离线RL基准上实现最新性能,并且对对抗性观察的扰动非常强大。
translated by 谷歌翻译
协调图是一种有前途的模型代理协作在多智能体增强学习中的合作方法。它将一个大的多代理系统分解为代表底层协调依赖性的重叠组套件。此范例中的一个危急挑战是计算基于图形的值分子的最大值动作的复杂性。它指的是分散的约束优化问题(DCOP),其恒定比率近似是NP - 硬问题。为了绕过这一基本硬度,提出了一种新的方法,命名为自组织的多项式协调图(SOP-CG),它使用结构化图表来保证具有足够功能表达的所致DCOP的最优性。我们将图形拓扑扩展为状态依赖性,将图形选择作为假想的代理商,最终从统一的Bellman Optimaly方程中获得端到端的学习范例。在实验中,我们表明我们的方法了解可解释的图形拓扑,诱导有效的协调,并提高各种合作多功能机构任务的性能。
translated by 谷歌翻译
在复杂的协调问题中,深层合作多智能经纪增强学习(Marl)的高效探索仍然依然存在挑战。在本文中,我们介绍了一种具有奇妙驱动的探索的新型情节多功能钢筋学习,称为EMC。我们利用对流行分解的MARL算法的洞察力“诱导的”个体Q值,即用于本地执行的单个实用程序功能,是本地动作观察历史的嵌入,并且可以捕获因奖励而捕获代理之间的相互作用在集中培训期间的反向化。因此,我们使用单独的Q值的预测误差作为协调勘探的内在奖励,利用集肠内存来利用探索的信息经验来提高政策培训。随着代理商的个人Q值函数的动态捕获了国家的新颖性和其他代理人的影响,我们的内在奖励可以促使对新或有前途的国家的协调探索。我们通过教学实例说明了我们的方法的优势,并展示了在星际争霸II微互动基准中挑战任务的最先进的MARL基础上的其显着优势。
translated by 谷歌翻译
多智能体增强学习任务对培训样本的体积提出了很高的需求。不同于其单代理对应物,基于分布式的超代理强化学习面临着苛刻的数据传输,流程间通信管理和勘探高要求的独特挑战。我们提出了一个容器化的学习框架来解决这些问题。我们打包了几个环境实例,本地学习者和缓冲区,以及仔细设计的多队列管理器,避免阻止容器。鼓励每个容器的本地政策尽可能多样,只有最优先考虑的轨迹被送到全球学习者。通过这种方式,我们实现了具有高系统吞吐量的可扩展,较效率和多样化的分布式Marl学习框架。要拥有知识,我们的方法是第一个解决挑战的谷歌研究足球全游戏$ 5 \ _v \ _5 $。在星际争霸II微型管理基准中,与最先进的非分布式MARL算法相比,我们的方法获得了4美元 - $ 18 \倍。
translated by 谷歌翻译
在离线强化学习(离线RL)中,主要挑战之一是处理学习策略与给定数据集之间的分布转变。为了解决这个问题,最近的离线RL方法试图引入保守主义偏见,以鼓励在高信心地区学习。无模型方法使用保守的正常化或特殊网络结构直接对策略或价值函数学习进行这样的偏见,但它们约束的策略搜索限制了脱机数据集之外的泛化。基于模型的方法使用保守量量化学习前瞻性动态模型,然后生成虚构的轨迹以扩展脱机数据集。然而,由于离线数据集中的有限样本,保守率量化通常在支撑区域内遭受全面化。不可靠的保守措施将误导基于模型的想象力,以不受欢迎的地区,导致过多的行为。为了鼓励更多的保守主义,我们提出了一种基于模型的离线RL框架,称为反向离线模型的想象(ROMI)。我们与新颖的反向策略结合使用逆向动力学模型,该模型可以生成导致脱机数据集中的目标目标状态的卷展栏。这些反向的想象力提供了无通知的数据增强,以便无模型策略学习,并使远程数据集的保守概括。 ROMI可以有效地与现成的无模型算法组合,以实现基于模型的概括,具有适当的保守主义。经验结果表明,我们的方法可以在离线RL基准任务中产生更保守的行为并实现最先进的性能。
translated by 谷歌翻译